【ECCV 2024】InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

Authors单位【Paper】【Project】我们推出了InternVideo2,这是一个新的视频基础模型(ViFM)系列,它在视频识别、视频文本任务和以视频为中心的对话方面取得了最先进的结果。我们的核心...